由于缺乏配对样本且功能性磁共振成像 (fMRI) 信号的信噪比低,重建感知到的自然图像或从 fMRI 数据解码其语义内容是一项艰巨的任务。在这项工作中,我们首次提出了一种与任务无关的基于 fMRI 的大脑解码模型 BrainCLIP,该模型利用 CLIP 的跨模态泛化能力来弥合大脑活动、图像和文本之间的模态差距。我们的实验表明,CLIP 可以作为通用大脑解码任务的关键,包括零样本视觉类别解码、fMRI 图像/文本匹配和 fMRI 到图像生成。具体来说,BrainCLIP 旨在通过结合视觉和文本监督来训练一个映射网络,将 fMRI 模式转换为对齐良好的 CLIP 嵌入空间。我们的实验表明,这种组合可以提高解码模型在某些任务上的性能,例如 fMRI 文本匹配和 fMRI 到图像生成。在零样本视觉类别解码任务中,BrainCLIP 的表现明显优于 BraVL,后者是最近提出的一种专门为该任务设计的多模态方法。BrainCLIP 还可以重建具有高语义保真度的视觉刺激,并在高级语义特征方面为基于 fMRI 的自然图像重建建立了新的领先水平。
主要关键词
![arXiv:2302.12971v1 [cs.CV] 2023 年 2 月 25 日PDF文件第1页](/bimg/4/4febce0a3630b4335b5e6c17c9eb7d9f3adfa043.webp)
![arXiv:2302.12971v1 [cs.CV] 2023 年 2 月 25 日PDF文件第2页](/bimg/7/760661229f8ef7f7e9b0c7458c8c4c383255d8cf.webp)
![arXiv:2302.12971v1 [cs.CV] 2023 年 2 月 25 日PDF文件第3页](/bimg/a/a5c1411fcbf220fd228a7ab8efb8aa99a28d40c6.webp)
![arXiv:2302.12971v1 [cs.CV] 2023 年 2 月 25 日PDF文件第4页](/bimg/9/9c0058c4df6dfae930e630ead5945423e152484b.webp)
![arXiv:2302.12971v1 [cs.CV] 2023 年 2 月 25 日PDF文件第5页](/bimg/3/35c3dcc58f2b24791f1b5c15485f6c814b4e6435.webp)
